@肖哲等:《现代汉语同音字家族属性的计量研究》

本篇运用了较多统计分析方法。可以学习数据分析方法的使用、数据结果的分析过程。重在如何从数据中得出结论。

【摘要】

关键词:同音字家族、同音字密度、幂律分布、使用频率

【引言】

【研究方法】

1. 数据库建立

2. 统计方法

1. 基于频谱拐点的划分

2. DBSCAN聚类分析

DBSCAN聚类分析的核心原理💡

  1. 基本概念
    • 基于密度:通过识别数据集中高密度区域(簇)与低密度区域(噪声)进行聚类。
    • 参数依赖:需要设定两个参数:eps(邻域半径)和minPts(核心点的最小邻居数)。
    • 核心点:若某点的eps邻域内至少有minPts个点,则为核心点。
    • 簇扩展:从核心点出发,通过密度可达的点逐步扩展形成簇。
  2. 优势
    • 无需预设簇数量,适合探索性分析。
    • 能处理任意形状的簇(如线性、环形)。
    • 自动识别噪声点(稀疏区域数据)

【研究结果1:基于类型频率的同音字家族分布】

1. 总体分布

幂律分布(Power Law Distribution)💡

  1. 什么是幂律分布?
  • 幂律分布描述的是一种特殊的数学关系,其中一个量的变化与另一个量的某次方成正比。
  • 用数学公式表示就是:y = ax^b,其中a和b是常数。
  1. 生活中的例子
  • 城市人口分布:少数大城市人口非常多,大多数城市人口较少
  • 财富分布:少数人拥有大量财富,大多数人拥有较少财富
  • 网站访问量:少数网站访问量极高,大多数网站访问量较低
    Link to 二八法则

2. 分布特征

【研究结果2:基于使用频率的同音字家族分布】

1. 总体分布

2. 分布特征

【讨论】

一、现代汉语的平均同音字密度:中等密度

  1. 密度数值及可靠性:
    • 平均同音字密度为7.71(每个音节平均拥有7.71个汉字)
    • 与前人研究结果相近:
      • 尹文刚(2003):7.85
      • 苏新春和林进展(2006):8.31
  2. 密度属性定性:
    • 确定为"中等密度"
    • 基于四种家族类型分析
    • 接近中密度家族平均值7.20
  3. 同音率概念的局限性:
    • 同音率(72%-80.49%)仅为理论计算
    • 实际影响受多因素调节
    • 双字词同音率显著降低(8.19%)

二、同音字家族类型与成员分布的互补格局

  1. 语言学视角:
    • 库藏与使用相对独立
      • 静态结构:反映音节库藏(同音字的家族类型和家族成员数)
      • 动态使用:体现使用强度(家族使用频率)
    • 使用频率的互补性:
      • 经济性:鲜明的高频倾向、高频/极高频家族成员的分布优势(尤其是二者中极高频成员的分布优势),使汉语只需要利用一部分音节和其中的少部分成员就能承担绝大部分使用频率,提高了语言使用的效率,
      • 多样性:而中频、低频家族类型的存在则为语言使用中必要的词汇多样性和丰富性提供了支撑。
  2. 认知心理视角:
    • 并行分布式加工模型解释
      • 同音聚合的心理实质是由语音吸引子(attractor)所形成的吸引域(basin of attractor)。
      • 语音相似会使得词典网络中相应单元的状态在接收输入时发生改变,使其在词典空间中移动、达到一个相对稳定的模式,成为一个吸引子,吸引子周围的区域会逐渐固定,形成吸引域。
    • 同音字家族语料的类型多样化和成员经济性的平衡
      • 大密度和超大密度家族的作用:
        • 例如"yi"这样的音节,有很多同音字
        • 形成较大的吸引域
        • 当听到类似的音时,更容易被识别出来
        • 其中高频字(如"一"、"以")会加强这个吸引域的强度
      • 中小密度家族的作用:
        • 起到调节作用
        • 防止网络过度激活(避免听到所有相似音都联想到高频音节)
        • 防止过度规则化(保持音节识别的灵活性)
并行分布式加工模型 (PDP模型):💡

  • 吸引子(attractor):
    • 类似于磁铁的作用点
    • 在心理词典中,是一个稳定的神经激活模式
    • 比如"zhang"这个音,在大脑中形成一个相对稳定的激活模式
  • 吸引域(basin of attractor):
    • 是吸引子能够影响的范围
    • 就像磁铁周围的磁场范围
    • 在这个范围内的相似音都会被"吸引"到这个稳定模式

三、同音字家族的幂律分布特点

  1. 幂律分布的特征:
    • 概率密度与变量值成反比
    • 呈现重尾分布形态
    • 具有"择优连接"特点
  2. 系统特性:
    • 少量中心节点提高效率
    • 大量非中心节点保持多样性
    • 兼具稳定性与灵活性
  3. 语言系统的普遍性: